时间差分方法

Back to Home

01. 简介
02. 迷你项目：时间差分方法 (OpenAI Gym-CliffWalkingEnv）
03. TD 预测：TD(0)
04. 实现
05. 迷你项目：时间差分方法（第 0 部分和第 1 部分）
06. TD 预测：动作值
07. TD 控制：Sarsa(0)
08. 实现
09. 迷你项目：时间差分方法（第 2 部分）
10. TD 控制：Sarsamax
11. 实现
12. 迷你项目：时间差分方法（第 3 部分）
13. TD 控制：预期 Sarsa
14. 实现
15. 迷你项目：时间差分方法（第 4 部分）
16. 分析性能
17. 总结

Back to Home

06. TD 预测：动作值

TD 预测：动作值

和 TD(0) 相似，这个用于估算动作值的方法保证会收敛于真动作值函数，只要步长参数 \alpha 足够小。

udacimak v1.4.0